Recherche documentaire par titrage automatique

نویسندگان

  • Cédric Lopez
  • Violaine Prince
  • Mathieu Roche
چکیده

In this paper, we propose a system in order to facilitate the information retrieval in a set of textual documents. Our approach is based on the automatic titling (and subtitling). This last one is crucial, for example, for the issue of web pages accessibility (W3C standard). Our process of automatic titling consists in extracting relevant noun phrases from texts. These ones can represent a title/subtitle of the document. An original approach combining statistical criteria and placement of the noun phrases in the text allows to propose titles and relevant subtitles. So, the user can have an outline of all the subjects evoked in a mass of documents, and easily find the information he was looking for. An evaluation on real data shows that the solutions given by our automatic titling approach are relevant. MOTS-CLÉS : Syntagmes nominaux, titrage automatique, statistiques.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Recherche d'information dans MEDLINE

RÉSUMÉ. Cet article décrit la banque documentaire MEDLINE depuis laquelle une collection test comprenant environ 4,5 million de documents structurés a été construite à partir des campagnes d’évaluation TREC. Dans une deuxième partie, nous évaluons et comparons l’efficacité du dépistage de l’information de dix modèles (probabiliste, modèle de langue, approches vectorielles). Cette évaluation est...

متن کامل

Nouvelles perspectives en extraction d'information

Les techniques dites d'extraction d'information (EI) ont connu un essor considérable ces dix dernières années. L'EI consiste à extraire de documents des informations précises et à les structurer sous une forme prédéfinie. Il s'agit en général de remplir des formulaires donnant certaines caractéristiques concernant des entités ou des événements évoqués dans les textes ainsi que des relations ent...

متن کامل

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML

RÉSUMÉ. Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les do...

متن کامل

Classification conceptuelle d'une collection documentaire - Intertextualité et Recherche d'Information

RÉSUMÉ. Une collection documentaire est généralement représentée comme un ensemble de documents mais cette modélisation ne permet pas de rendre compte des relations intertextuelles et du contexte d’interprétation d’un document. Le modèle documentaire classique trouve ses limites dans les domaines spécialisés où les besoins d’accès à l’information correspondent à des usages spécifiques et où les...

متن کامل

Un outil de détection automatique de thèmes

Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2011